Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.
В статье обсуждается структурный подход к представлению информации, в котором понятия сигнала и информации формально разделяются между собой, представление информации трактуется как устойчивая компонента сигнала, и отсчеты представления информации, образуемые носителями ее единиц, задают иерархию разбиений сигнала на вложенные сигналы. Устанавливается преемственность обсуждаемого подхо да в отношении к известным подходам. Обсуждение опирается на аналогию с текстом, анализируемым независимо от языка документа. С учетом особенностей представления информации предлагается алгоритмический способ моделирования распознавания сигналов некоторой вычислительной системой или человеком.
Разработан подход для сравнительного анализа коллекций научных журналов на основе анализа графа соавторств и модели текста. Использование временных рядов метрик графа соавторства позволило провести анализ тенденций в развитии коллабораций авторов журнала. Модель текста была построена с помощью методов машинного обучения. При помощи модели текста была произведена классификация контента журналов для выявления степени аутентичности различных журналов и различных выпусков одного журнала. Разработана метрика Коэффициент контентной аутентичности, позволяющая количественно оценивать аутентичность коллекций журналов в сравнении. Сравнительный тематический анализ коллекций журналов выполнен с использованием тематической модели с аддитивной регуляризацией. На основании созданной тематической модели авторами построены тематические профили архивов журналов в едином тематическом базисе. Разработанный подход был применен к архивам двух журналов по тематике Ревматология за период 2000 – 2018 гг. В качестве эталона для сравнения метрик соавторств были взяты публичные наборы данных научной лаборатории SNAP Стендфордского университета. Проведено сравнение коллабораций соавторов журналов по тематике Ревматология с эталонными коллаборациями авторов. Произведено количественное сопоставление больших объемов текстов и метаданных научных статей. В результате проведенного авторами эксперимента с использованием разработанных методик показано, что контентная аутентичность выбранных журналов составляет 89%, соавторства в одном из журналов имеют ярко выраженную центральность, что является отличительной чертой редакционной политики. Наглядность и непротиворечивость полученных результатов подтверждает эффективность предложенного подхода. Разработанный в ходе эксперимента код на языке программирования Python может быть применен для сравнительного анализа других коллекций журналов на русском языке.
Анализируется текущее состояние в области защиты от ложной информации в компьютерных сетях и формулируются актуальные проблемы, связанные с этой защитой. Предлагается подход к оценке мероприятий защиты от такой информации на основе использования марковской модели дезинформирования. Раскрывается архитектура перспективной системы анализа информации в компьютерных сетях по требованиям достоверности. В рамках этой архитектуры рассматриваются усовершенствованные методы анализа достоверности текстов. Предлагается комплексный подход к использованию известных и предложенных методов для оперативного выявления ложной информации в компьютерных сетях. Кроме того, метод может применяться в области борьбы с киберпреступностью и терроризмом для поиска сетевых ресурсов и коммуникационных площадок, которые могут быть использованы для организации противоправной деятельности.
В статье рассматриваются вопросы, посвященные созданию автоматической системы синтеза по ключевым словам коротких текстовых сообщений с заданной семантической и эмоциональной направленностью в сети Интернет. Предложена эскизная структура прототипа такой системы, определен состав ее основных компонентов.
1 - 5 из 5 результатов